全球变化科学研究数据出版与共享成果分析(2018

石瑞香,马军花,刘  *,张应华,王正兴,申 

中国科学院地理科学与资源研究所,北京 100101

  要:“全球变化科学研究数据出版系统”进入了第五年(2018年)。本文从2018年出版的数据集、数据作者、数据关联论文和数据共享等方面,对该年出版成果做以总结。在此基础上对数据发展态势进行了分析,对数据出版中存在的问题进行了讨论。成果统计表明,2018年“全球变化科学研究数据出版系统”总计出版了8168个数据集,出版数据文件3,916个,压缩为277个数据文件包,出版数据量42.49 GB,压缩后出版量为13.31 GB数据集覆盖区域上,亚洲的数据集出版最多(125个),占总出版数据集的74.40%;覆盖全球的数据集4个;跨洲区域的数据集3个。2018年新增数据集作者278位,他们主要来自国内。在出版的数据集中,有43个数据集与数据论文直接关联,有94篇科学发现论文或研究报告与数据集直接关联。新增4,750 IP用户,数据下载次数增加17,147次,下载量增加836.87 GB2014-2018年出版的数据集总被引次数为167次,年平均引用次数为33,数据影响力积分为344.43,平均数据引用期刊影响因子为2.06。其中,2018年数据被学术期刊论文作者引用43次,高于五年平均引用10次,数据影响力积分为138.73,年平均数据引用期刊影响因子为3.27,高于五年平均数据引用期刊影响因子1.17。“全球变化科学研究数据出版系统”获得2018年联合国世界信息峰会奖(电子科学组冠军奖),中国大数据博览会2018领先科技成果奖“入围优秀项目”,中国数字化出版博览会创新项目荣誉,先后在国内外10所大学(科研院所)开展了百校传播活动。

关键词:全球变化;数据出版;年度总结;成果分析;2018

DOI: 10.3974/geodp.2019.01.01

1  前言

2018年是“全球变化科学研究数据出版系统”(Global Change Research Data Publishing & Repository)正式开通以来的第五年。这一年,国务院办公厅发布了“关于印发科学数据管理办法的通知”(国办发〔201817号)。其中,第22条明确规定,主管部门和法人单位应积极推动科学数据出版和传播工作,支持科研人员整理发表产权清晰、准确完整、共享价值高的科学数据[1]20183月,“全球变化科学研究数据出版系统”获得联合国信息社会世界峰会奖(电子科学组冠军奖)[2]5月,在中国大数据博览会上,获得2018领先科技成果奖“入围优秀项目”。7月,在第八届中国数字出版博览会评选中,获得2017-2018年度数字出版“创新项目”荣誉[3]

截至20181231日,“全球变化科学研究数据出版系统”作为世界数据系统(WDS)正式成员和中国地球观测数据出版分中心[4],共计出版了25511个数据集,出版数据量1.05 TB(压缩后出版量为223 GB)。这些数据来自12个国家(或国际组织)的845位作者。为了确保出版的数据公开、透明,并使学术界全面了解数据出版和共享的进展情况,根据“全球变化科学研究数据出版与共享指南”[5]第六十八条和第六十九条规定,20188月,在西安“中国地理学大会”上,中国地理学会发布了“全球变化科学研究数据出版与共享排行榜”[6]。这次排行榜的内容包括:数据集作者单位排行榜、基金资助排行榜、学术期刊论文关联原创实体数据出版期刊排行榜、热点数据集网络浏览量排行榜、热点数据集网络下载次数排行榜、数据成果科学影响力积分排行榜和数据集作者科学影响力排行榜。本文对2018年度数据出版工作,从出版的数据集、数据集作者、数据集资助基金、数据集关联论文、数据被引和数据共享等方面进行统计和总结。

2  数据成果统计

2.1  数据集成果

2018年,“全球变化科学研究数据出版系统”总计出版了8168个数据集(见表1),比2017[7]多出版了485个数据集。2018年,出版数据文件总量为3916个,压缩为277个数据文件包,文件打包率为14.14,数据量为42.49 GB,压缩后为13.31 GB,数据压缩率为3.19

 

1  2018年“全球变化科学研究数据出版系统”出版数据集统计表

/

期数

出版数据
集数(个)

出版数据
文件数(个)

数据
文件包(个)

出版
数据量(GB

压缩后
数据量(GB

2018.01-02

1

28

644

69

28.39

11.84

2018.02-03

1

20

300

40

0.12

0.04

2018.04-05

1

20

1,076

32

0.34

0.06

2018.06-07

1

20

322

28

0.04

0.01

2018.08-09

1

20

807

30

0.55

0.38

2018.10-11

1

20

228

21

4.51

0.16

2018.11

1

20

149

25

7.56

0.69

2018.12

1

20

390

32

0.98

0.13

2018合计

8

168

3,916

277

42.49

13.31

2014-2018总计

25

511

397,942

1,503

1,070.62

222.41

 

2.2  数据集覆盖的地理区域

2018年“全球变化科学研究数据出版系统”出版的数据集中,有4个数据集覆盖全球,占本年度出版数据集数的2.38%(表2)。跨洲区域数据集3个,占本年度出版数据集数的1.79%。亚洲数据集出版最多,达125个,占本年度出版数据集数的74.40%。其中,中国区域的数据集为96个,占亚洲区域数据集数的76.8%,占2018本年度出版数据集数的57.14%北美洲数据集22个,占总出版数据集13.10%。非洲数据集3个,欧洲和拉丁美洲数据集均为2个,大洋洲数据集1个,极地数据集2个。此外,还有4个涉及数据技术、方法等的数据集。

2  数据集覆盖地理区域统计表

研究区域

数据集个数

占百分比(%

全球

4

2.38

跨洲区域

3

1.79

亚洲

125

74.40

欧洲

2

1.19

北美洲

22

13.10

拉丁美洲

2

1.19

大洋洲

1

0.60

非洲

3

1.79

极地

2

1.19

技术、方法

4

2.38

总计

168

100

2.3  数据集学科领域

全球变化科学研究数据涉及的学科领域比较广泛,包括:地理、资源、生态、环境、大气、海洋、土地、植被、水域、社会经济、人文、艺术、历史等。表3列出了2018年“全球变化科学研究数据出版系统”出版的数据集所涉及的学科领域及其所占百分比。在2018年出版的数据集中,学科领域涉及陆地的数据集有130个,占本年度出版数据集77.38%;海洋(包括深海、浅海、极地、海岸带和海岛等)数据集36个,占本年度出版数据集21.43%。此外,文化、艺术领域2个,占本年度出版数据集1.19%

3  数据集涉及学科领域统计表

 

学科领域

数据集

个数

占百分比(%

水文

33

19.64

土地

15

8.93

生态、生物

34

20.24

大气

16

9.52

地质与地球物理

11

6.55

灾害

7

4.17

人文、经济

14

8.33

海洋(包括海洋、

36

21.43

 

海岸带、岛屿)

文化、艺术等

2

1.19

 

168

100

在出版的陆地数据集中,水文(包括河流、湖泊、湿地等)数据集33个,占本年度出版数据集19.64%;土地(包括土地覆盖,土地利用等)数据集15个,占2018年出版数据集8.93%。在生态、生物领域出版数据集最多,为34个,占20.24%。大气领域(包括天气、气候等)数据集16个,本年度出版数据集9.52%。地质和地球物理领域出版数据集11个,占本年度出版数据集6.55%;灾害数据集7个,占本年度出版数据集4.17%。人文、经济领域的数据出版了14个,占本年度出版数据集8.33%

2.4  数据集级别

根据国内外地球观测数据及全球变化科学研究数据自获取至数据产品研发过程,数据集划分0-5级,数据集级别划分的基本原则和标准[7]

0级:机器获得的数据或信号;

1级:在0级数据基础上,经过几何校正、辐射校正等处理的数据;

2级:1级数据+智力投入后产生的数据集;

3级:2级数据+智力投入后产生的数据集;

4级:多个2级或3级数据+智力投入后产生的数据集;

4  数据集分级汇总表

出版数据集数

所属分级

占百分比(%

144

2

85.71

21

3

12.50

3

4

1.79

5级:多个2级或3级或4级数据+智力投入后产生的综合性、时间序列、覆盖全球数据集。

根据这一划分原则,对2018年“全球变化科学研究数据出版系统”出版的168个数据集分别予以分级并汇总。由表4知,大部分数据集为基础性2级数据,占总出版数据集数的85.71%3级数据集21个,占12.50%4级数据集3个,占1.79%

3  数据集作者与单位

3.1  数据集作者

截至20181231日,“全球变化科学研究数据出版系统”数据集作者达845位,与2017年底相比,新增数据集作者278位。

3.2  数据集作者人数

5  按作者人数划分的数据集统计表

作者人数(人)

数据集个数

占百分比(%

1

18

10.71

2-5

130

77.38

6

20

11.90

2018年出版的168个数据集中,有18个数据集由独立作者完成,占本年度出版数据集数的10.71%;大量的数据集(130个)是由2-5人组成的小团队完成,占本年度出版数据集数77.38%;由6人以上组成的团队研发、出版的数据集有20个,占本年度出版数据集数的11.90%(表5)。

3.3  中国作者单位所在部门和地区

3.3.1  中国作者单位所在部门

6  按中国作者所在部门划分的数据集统计表

作者单位
所在部门

数据集
个数

作者单位
所在部门

数据集
个数

中国科学院

114

海关总署

1

教育部

78

中国地震局

1

中国气象局

7

农业农村部

1

地方

4

中国社会科学院

1

国家测绘地理信息局

3

总计

215

自然资源部

2

实际出版数据集

168

生态环境部

2

跨系统合作数据集

47

国家科学技术部

1

跨系统合作数据集比例

27.98%

6列出了2018年出版数据的中国作者所在单位隶属的部门。中国科学院的数据作者最多,其次是教育部系统。虽然数据集作者以本部门合作为主,跨部门合作完成的数据集也达到47个,占27.98%,比2014-2017年数据集作者跨部门合作占的比例高出4.95%

3.3.2  中国作者所在地(省、直辖市、自治区)

2018年出版数据集的中国作者单位分布各省(直辖市、自治区)的情况列于表7。来自北京的作者出版数据集最多,达116个,占本年度出版数据集数的69.05%;来自山东、江苏和青海的作者出版的数据集在10-20之间;多数省份出版的数据集为个位数。在出版的数据集中,跨省(市、自治区)合作的数据集占本年度出版数据集数的24.40%,比2014-2017年增加了7.2%

3.4  数据集的资助基金

由出版数据集的资助基金统计得知,大部分数据集研发都有基金项目资助(占91.67%)。可喜的是,虽然没有基金资助,但仍有8.33%的数据集是学者自由选题研发的。在由基金资助的数据集中,由一个基金资助的数据集占总出版数据集数的34.52%,由2个及以上基金资助研发的数据集占57.14%(表8)。这部分多为数据量大,覆盖区域广,数据集级别较高,或时间序列较长的数据集。

7  按中国作者所在地划分的数据集统计表

作者单位

数据集个数

作者单位

数据集个数

作者单位

数据集个数

作者单位

数据集个数

北京

116

安徽

4

甘肃

2

内蒙古

1

山东

13

贵州

4

新疆

1

海南

1

江苏

12

四川

3

宁夏

1

重庆

1

青海

10

上海

4

山西

1

 

 

广东

9

吉林

2

河北

1

 

 

湖北

7

浙江

2

合计

 

216

河南

6

广西

2

实际出版数据集

 

168

陕西

5

江西

2

跨地区合作出版数据集

 

41

辽宁

4

湖南

2

跨地区合作出版数据集比例

 

24.40%

 

8  按资助基金项数划分的数据集统计表

资助基金

数据集个数

所占比例(%

没有基金资助

14

8.33

1个基金资助

58

34.52

2个及以上基金资助

96

57.14

总计

168

100

在出版的168个数据集中,标注有344项基金项目(课题)资助研发和出版。其中,有116项来自国家自然科学基金,占基金项目总数的33.72%;有78项来自国家科学技术部,占基金项目总数22.68%;有35项来自中国科学院,占基金项目总数的10.17%;有104项来自地方和企业,占基金项目总数的30.23%(表9)。

 

9  资助数据集研发与出版的各类基金项目(课题)统计表

基金项目来源

基金项目

占百分比(%

基金项目来源

基金项目

占百分比(%

(课题)数

(课题)数

国家自然科学基金

116

33.72

国家社会科学基金

3

0.87

地方、企业

104

30.23

自然资源部

1

0.29

国家科学技术部

78

22.68

国家发展与改革委员会

1

0.29

中国科学院

35

10.17

交通运输部

1

0.29

教育部

5

1.45

合计

344

100

4  实体数据与数据信息关联

10  数据论文与科学发现论文统计表

年份

数据集
个数

数据论文
篇数

科学发现
论文篇数

论文总计

2014-2017

343

93

119

212

2018

168

43

94

137

总计

511

136

213

349

与实体数据关联的论文分为两种类型:其一是与实体数据关联的数据论文;其二是作者发表的与实体数据直接关联的科学发现论文。2018年实体数据共关联94篇科学发现论文或者研究报告(表10)。2018年,在《全球变化数据学报》(中英文)上,开设有数据科学影响力、数据技术、数据计算平台、数据论文、全球变化数据大百科辞条和学术活动等栏目,共出版84篇论文。其中,数据论文43篇,数据技术2篇,数据科学影响力2篇,出版标准2篇,数据计算平台3篇,全球变化数据大百科辞条21个,学术活动报道10篇,数据更新1篇。

5  数据共享统计

11列出了全球变化科学研究数据历年和累计共享量。其中,网站访问累计达133万余人次,计算机IP用户达4万余,数据下载次数14万余(以北京时间零时为基准,24小时内同一台计算机IP用户多次下载同一个数据文件,按一次记录),数据下载量(压缩后)在3.5 TB以上。由表11知,数据出版系统每年的访问人次、数据下载量等呈增加趋势。

11  全球变化科学研究数据共享统计表*

访问
人次

累计访问
人次

新增用户数(IP

累计用
户数(IP

数据下载
次数

累计下载
次数

数据下载量(GB

累计下载量
GB

2014

332,846

332,846

174

174

822

822

25.79

25.79

2015

124,668

457,514

9,764

9,938

23,726

24,548

976.11

1,001.90

2016

339,870

797,384

10,701

20,639

47,867

72,415

703.31

1,705.21

2017

83,434

880,818

16,158

36,797

53,493

125,908

970.49

2,675.70

2018

454,976

1,335,794

4,750

41,547

17,147

143,055

836.87

3,512.57

*注:表格中,2014-2017年数据来自参考文献[4]

6  数据被引与数据影响力积分(DIS

2018年,全球变化科学研究数据出版系统增加了数据集被引次数和数据影响力积分评价。具体评价方法和说明详见文献[8-9]2014-2018年出版的数据集总被引次数167次。其中,20142015201620172018年出版的数据集被引次数分别是1381489432014-2018年数据影响力积分为344.4320142015201620172018年出版的数据集影响力积分分别为29.9019.9773.4282.41138.73(图1)。2018年虽然数据被引没有出现2016年被Nature引用(2016Nature影响因子40)的情况,但是,平均被引数据发表的论文期刊影响因子比五年平均影响因子高出1.17,呈现5年来持续上升态势,达到除2016年外引用量和影响力积分最高态势(表12)。这个发展态势表明数据的出版、共享和引用将对科学研究起到越来越大的作用,数据驱动的科学研究新方式已经出现苗头。

 

1  年度与累计数据影响力积分

12  数据被引次数与数据影响力积分(DIS)统计表

年份

数据被引次数

数据影响力积分(DIS

平均引用期刊影响因子(IF

2014

13

29.90

2.3

2015

8

19.97

2.50

2016

14

73.42

5.25

2017

89

82.41

0.93

2018

43

138.73

3.23

2014-2018年总计

167

344.43

2.06

2014-2018五年年平均

33.4

68.89

2.06

2018与五年年平均比较

+ 9.6

+ 69.84

+ 1.17

7  全球变化科学数据出版与共享百校传播

面对数据出版这一新生事物,大多数学者不十分了解其内涵,不知道数据如何出版,如何共享等。为了解决这些问题,也为了推动全球变化科学研究数据出版与共享,自2017年起,在中国科学院科学传播局的资助下,中国地理学会和中科院地理科学与资源研究所学术期刊中心联合组织了全球变化科学研究数据出版与共享百校传播活动。2018年继2017年举办了9场的基础上,先后在国内外10所大学和科研院所举办了科学报告会和数据出版与共享科学传播活动(表13)。共计1,300余名学生、教授、专家、学者参加了传播活动。全球变化科学研究数据出版与共享走进校园是落实国家大数据战略的有效行动之一。

8  结论

2018年,全球变化科学研究数据出版与共享取得了显著的成果。在全球变化大领域内,科学数据出版与共享的数字化融合出版新机制,元数据、实体数据、数据论文采用中英文双语同刊的方式出版和传播的新方法,数据科学影响力积分(DIS)的定量化评价体系,网络平台传播和线下交流相结合模式,走进校园和走进联合国并举的传播举措等都成为本年度数据出版与共享取得重要进展的可靠保障。全球变化科学研究数据出版与共享本年度的实践证明,在以科学探索和社会需求为导向的数据出版与共享科学活动中,敏锐的数据创新思想、缜密的数据管理章法与严谨的数据工匠精神缺一不可。

13  2018年全球变化科学数据出版与共享百校传播统计表

场次

时间

地点

承办单位

会议主题

10

421

北京

北京航天航空大学

空间技术与全球健康

11

519

芜湖

安徽师范大学

大数据时代地理学

12

520

南京

南京大学

大数据地理学

13

621

北京

中国疾病预防控制中心

科学数据出版与共享——国家大数据战略的理解与实践

14

915

广州

华南师范大学

信息技术推动地学研究变革与创新

15

916

杭州

浙江大学

A·B·C助推地理学革新发展

16

919

上海

同济大学

地理空间数据质量与验证

17

919

加德满都

尼泊尔国际山地中心

发展中国家数据共享能力建设

18

920

贵阳

贵州师范大学

地理大数据助力学科和美丽家园建设

19

1018

天津

国家海洋局信息中心

科学数据出版与共享机制探索与案例

2018年,在数据出版实践中,也遇到一些新问题。主要包括:(1)多数科研工作者对数据出版认识不足,对论文出版的积极性远远高于对数据出版的积极性;(2)很多科研工作者对数据的知识产权概念不清,什么数据可以署名,什么数据属于引用他人数据,如何著录和标引等认识模糊;(3)数据稿件质量问题较大,数据集需要同行专家多次审核、作者多次修改才能达到出版水平的情况不在少数;(4)在全球变化科学研究数据覆盖区域方面,亚洲以外的区域数据集相对比较少,影响世界的全局性、基础性数据少,国外作者数量相对比较少;(5)目前学术界还缺少数据计算环境方面的统计信息等。针对上面列出的(1)、(2)问题,全球变化科学研究数据出版系统编辑部和编委会需要加强宣传,进一步加深科研工作者对科学数据出版与共享的认识,处理好数据知识产权保护和共享关系,处理好数据作者和数据使用者双重身份的关系。针对第(3)个问题,科研人员需要戒除浮躁、认真细致地对待数据中的每一个记录,严格按照国家有关规定、学术规范和学术标准研发数据。针对第(4)个问题,希望政府主管部门、各类基金会、科研院所、大学等有关部门能对数据出版给予重视,在科学贡献评价体系中给予数据出版成果应有的地位。对于数据覆盖区域亚洲以外数据集较少、国外作者较少的问题,有必要在以后的工作中,加大宣传力度和政策导向,促进国外学者参与全球变化科学研究数据的出版,鼓励国内外学者合作出版。最后一个问题,科学数据计算环境是目前科学统计中的空白,中国地理学会自2018年起,启动数据计算环境优秀实用案例征集和记录在案工作[10-12],目的是以此推动数据计算环境的实用导向。根据中国的科技文化和科技基础设施建设的情况,可能今后很长一段时期内,需要采取各个单位小型、实用数据计算环境和国家大数据云计算平台并举的发展战略。因此,鼓励各个单位、研究团队数据计算环境以实用为导向是避免数据计算平台投资浪费的可选择举措。

参考文献

[1]       中华人民共和国科学技术部. 国务院办公厅关于印发科学数据管理办法的通知[OL]. http://www.most.gov.cn/mostinfo/xinxifenlei/fgzc/gfxwj/gfxwj2018/201804/t20180404_139023.htm.

[2]       《全球变化数据学报》(中英文)编辑部. “全球变化科学研究数据出版、保藏与共享系统2018年信息社会世界峰会奖(电子科学组冠军奖) [R]. 全球变化数据学报, 2018, 2(1): 1-6. DOI: 10.3974/ geodp.2018.01.01.

[3]       中国科学院地理科学与资源研究所科技信息与平台处. “全球变化科学研究数据出版系统获得第八届中国数字出版博览会 创新项目荣誉[R]. 全球变化数据学报, 2018, 2(3): 352-353. DOI: 10.3974/ geodp.2018.03.17.

[4]       刘闯, 郭华东, Uhlir, P. F.. 发展中国家数据出版基础设施与共享政策研究[J]. 全球变化数据学报, 2017, 1(1): 3-11. DOI: 10.3974/geodp. 2017.01.02.

[5]       《全球变化数据学报》(中英文)编辑部. 全球变化科学研究数据出版与共享指南[J]. 全球变化数据学报, 2017, 1(3): 253-261. DOI: 10.3974/geodp. 2017.03.01.

[6]       中国地理学会. 全球变化科学研究数据出版与共享排行榜[R]. 全球变化数据学报, 2018, 2(3): 243-247. DOI: 10.3974/geodp.2018.03.01.

[7]       石瑞香, 刘闯, 马军花等. 全球变化科学研究数据出版成果分析(2014-2017) [J]. 全球变化数据学报, 2017, 1(4): 383-390. DOI: 10.3974/geodp.2017.04.01.

[8]       刘闯. 数据影响力积分(DIS)——数据影响力新的计量方法[J]. 全球变化数据学报, 2018, 2(2): 135-143 .DOI: 10.3974/geodp.2018.02.02.

[9]       刘闯, 廖小罕, 张国友等. 2018年中国地理学会数据成果科学影响力排行榜榜首解析[J]. 全球变化数据学报, 2018, 2(3): 249-255. DOI: 10.3974/geodp.2018.03.02.

[10]    柳钦火, 仲波, 唐娉等. 多源协同定量遥感产品生产系统[J]. 全球变化数据学报, 2018, 2(3): 271- 278. DOI: 10.3974/geodp. 2018.03.03.

[11]    张丰, 白雁. 服务于海洋碳通量研究的时空分布式存算一体化架构平台[J]. 全球变化数据学报, 2018, 2(3): 279-289. DOI: 10.3974/geodp.2018.03.05.

[12]    薛冰, 李京忠, 肖骁等. 基于大数据的城市人地关系分析与应用计算平台[J]. 全球变化数据学报, 2018, 2(3): 290-294. DOI: 10.3974/geodp.2018.03.06.